跳到主要内容

AI 绘图技术体系

把 AI 绘图的技术体系划分为三个完全不同的维度：

维度一：模型/产品名称（“汽车品牌”）

代表： FLUX、Stable Diffusion (SD)、Midjourney、DALL-E 3。
解释： 这是最终打包推向市场的成品名字。它包含了一整套训练好的权重、文本编码器和生成器。

维度二：神经网络架构（“发动机引擎结构”）

代表： UNet、DiT (Diffusion Transformer)、CNN (卷积神经网络)、GAN (生成对抗网络)。
解释： 这是 AI 用来“画画”的底层代码骨架。它决定了 AI 是用什么样的方式去观察和处理图像像素的。
- UNet 的工作方式（SD 系列在用）： 它是基于“卷积”的。就像拿着放大镜一点点扫过画布，先把高清大图压缩成一团极小的马赛克（提取出高级特征，这是 U 字的谷底），然后再慢慢放大还原成清晰的图像。这种方式擅长处理局部的纹理，但容易“缺乏大局观”（比如画错手指数、写错英文字母）。
- DiT 的工作方式（FLUX 在用）： 它借鉴了 ChatGPT 的思路。不搞压缩放大，而是直接把图片切成一个个小方块（Patches）。然后利用“全局注意力机制”，让每一个方块都能同时看到其他所有方块。这就赋予了它极强的全局结构感和文本渲染能力。

维度三：数学生成范式（“物理定律与底层逻辑”）

代表： Diffusion（扩散模型）、Flow Matching（流匹配）、Autoregressive（自回归）。
解释： 这是指导引擎如何“从无到有”生成数据的最高数学原则。
- Diffusion： 对应弯曲的去噪轨迹。
- Flow Matching： 对应拉直的线性轨迹。

对号入座

按照这三个维度，我们可以清晰地画出两代霸主的技术族谱：

旧时代的王者（如 Stable Diffusion XL）： 品牌是 SDXL ➡️ 发动机架构是 UNet ➡️ 数学原理是 Diffusion（扩散）。
新时代的王者（如 FLUX.1）： 品牌是 FLUX ➡️ 发动机架构是 DiT ➡️ 数学原理是 Flow Matching（流匹配）。

当前流行图像模型多维度拆解表

维度一：模型/产品名称 (汽车品牌)	维度二：神经网络架构 (发动机引擎)	维度三：数学生成范式 (物理定律)	核心优势与定位 (附加说明)
Flux.1 (Black Forest Labs)	MM-DiT (多模态 Transformer)	Flow Matching (流匹配)	目前开源界的绝对画质霸主，彻底解决手部变形和复杂文本渲染问题。
SD3 / 3.5 (Stability AI)	MM-DiT (多模态 Transformer)	Flow Matching (流匹配)	采用双流结构，对复杂长提示词和空间位置关系的理解极强。
SDXL (Stability AI)	UNet (U型卷积网络)	Diffusion (扩散模型)	上一代开源霸主，生态极其庞大，拥有无数成熟的 LoRA 和 ControlNet。
Kolors (可图) (快手)	改进版 UNet	Diffusion (扩散模型)	结合了强大的大语言模型作为文本编码器，中文语义理解极具优势。
Qwen-Image / Edit (阿里)	DiT (扩散 Transformer)	Diffusion (扩散模型)	阿里最新开源主力，原生支持极高精度的局部修复与图像拓展编辑。
LongCat-Image (美团)	紧凑型 DiT (文生图与编辑同源)	Diffusion (扩散模型)	最新开源黑马，主打单图精细化编辑与汉字的高精度渲染。
Hunyuan-DiT (腾讯)	DiT (扩散 Transformer)	Diffusion (扩散模型)	国内首批全面采用 DiT 架构的开源模型，中英文双语原生支持，画风多样。
---	---	---	---
Nano Banana 2 / Pro (Google)	自研多模态 Transformer	Diffusion (扩散衍生)	(闭源) Gemini 3 家族的原生图像模型。主打极速响应、真实的物理世界知识推理（思考功能）和惊艳的多语言排版渲染。
GPT-Image 2 (OpenAI)	自研多模态 Transformer	Diffusion (扩散衍生)	(闭源) ChatGPT Images 2.0。主打“听话”，在多目标精准组合、复杂 UI 截图生成和指令遵循上表现极其稳定。

维度一：模型/产品名称（“汽车品牌”）
维度二：神经网络架构（“发动机引擎结构”）
维度三：数学生成范式（“物理定律与底层逻辑”）
对号入座
当前流行图像模型多维度拆解表